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基于 状态 转换 图 的 公共 场所 行人 视频 监控 方法 研究 


么 居 标 ， 王 冬 琳 
(北京 电子 科技 职业 学 院 ， 北 京 100029) 

摘 要 : 自动 视频 监控 对 于 公共 场所 的 安全 控制 等 方面 具有 重要 意义 。 本 文 实现 了 一 个 实用 的 行人 监控 系 
统 ， 采 用 了 基于 改进 Kalman 滤波 的 背景 更 新 方法 进行 背景 的 有 效 更 新 ， 同 时 开创 性 地 提出 了 基 
于 状态 转换 图 的 行人 计数 系统 ， 用 于 处 理 场景 中 前 景 遮挡 、 粘 连 等 复杂 情况 ， 弥 补 了 复杂 条 件 下 
前 景 运 动物 体检 测 存 在 的 准确 度 不 高 的 问题 ， 实 验 结果 证 明了 此 方法 的 有 效 性 。 
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公共 场所 的 人 流量 、 客 流量 的 统计 与 测量 对 于 人 流 的 高 峰 控 制 告 警 ， 提 取 公 共 场 所 的 统计 
数据 有 很 大 意义 ， 也 对 行人 通道 线路 的 设计 ， 服 务 设 施 地 点 的 选择 等 问题 有 着 至 关 重 要 的 指导 
作用 。 目 前 实用 的 视频 监控 技术 仍然 以 基于 背景 模型 的 前 景 检 测 辅 以 运动 物体 跟踪 为 主 映 。 最 
基本 的 运动 物体 包括 运动 分 割 癌 与 跟踪 四 两 部 分 。 

运动 物体 之 间 的 粘连 与 遮挡 是 非常 普遍 的 现象 加， 尤其 对 于 密集 人 流 监 控 系 统 这 样 的 复杂 
情况 。 实 际 问题 的 特点 在 于 计数 要 求 不 是 十 分 精确 ， 人 流 的 向 单一 集中 。 我 们 的 工作 就 是 实 
现 一 个 这 样 的 自动 行人 计数 系统 ， 完 成 实际 应 用 的 要 求 。 本 文 的 其 余 章节 安排 如 下 : 首先 在 
第 2 章 详细 介绍 我 们 提出 的 基于 状态 转换 图 的 视频 监控 系统 ， 第 3 章 展示 实现 的 系统 的 实验 结 
果 ， 最 后 在 第 4 章 给 出 总 结 


2 ”基于 状态 转换 图 的 公共 场所 行人 视频 监控 系统 


我 们 实现 的 系统 流程 如 下 : 首先 通过 改进 Kalman 滤波 的 方法 得 到 实时 更 新 的 背景 图 像 ， 
再 通过 传统 的 形态 学 方法 得 到 前 景 行人 ; 在 行人 跟踪 的 问题 上 ， 我 们 通过 状态 转换 图 实现 计数 
的 多 少 又 是 基于 自 适应 面积 域 值 的 分 析 。 有 具体 细 节 在 下 面 详细 介绍 。 

2.1 基于 Kalman 滤波 的 背景 更 新 与 连通 区 检测 

背景 提取 算法 以 Kalman 滤波 为 基础 ，Kalman 滤波 的 普遍 公式 如 下 

B(k+1)= BK)+K(E+I)IC(E+1) — WB(E)], 
K(k+1)= P(k+1)WT[Ol + WP(E)WT)], (1) 
P(Ek+1)= [1- K(k+1)WIP(E)/S, 
式 中 C(k 十 1) 是 k+l 时刻 的 输入 图 像 ，B(k), BB(k 十 1) 分别 是 k 时 刻 和 十 1 时刻 的 估 值 ， 也 就 
是 背景 图 像 ，K(k 十 1) 是 k+l 时 刻 的 时 变 增 益 因 子 ， 取 值 介 于 0 和 1 之 间 ; P(k), P(k 二 1) 分 别 
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是 上 时 刻 和 天 十 1 时 刻 的 方差 矩阵 ， 琵 是 观测 矩阵 ，6 是 渐 消 记 忆 因 子 ， 了 I 是 单位 矩 阵 。 若 认为 
图 像 每 一 个 时 空 点 在 空间 独立 ， 则 上 面 方 程式 中 的 所 有 变量 均 退 化 为 标量 : W = 1 且 I = 1。 
同时 为 了 简化 计算 ,假设 原 递 推 过 程 为 一 个 时 不 变 随机 过 程 ，P 与 K 均 不 随 t 的 变化 改变 。 联 
立 求解 得 到 ， 上 面 的 公式 可 以 转化 为 


B(k+1)= B(k)+ K(k+1)[C(k +1)— B(k)], 
K(k+1)=1-0, 


这 里 的 有 K(k 十 1)， 在 系统 中 称 为 “更 新 系数 ”(update rate)， 对 这 一 变量 的 控制 ， 体 现 了 背景 
更 新 的 速度 和 对 变化 的 敏感 程度 。 我 们 对 Kalman 的 传统 算法 作 了 改进 ， 加 入 了 非 线性 的 部 
分 。 在 整个 视频 的 最 前 几 帧 ， 用 简单 平均 的 方法 得 到 背景 的 初步 估计 ， 之 后 如 果 背 景 与 当前 由 
差异 过 大 ， 很 大 可 能 上 是 前 景 的 遮挡 ， 因 此 不 能 直接 用 Kalman 方法 更 新 背景 ， 为 了 防止 场景 
中 突然 出 现 一 个 物体 并 停止 转化 为 前 景 ， 如 果 一 个 像素 点 的 灰 度 值 一 段 时 间 与 背景 具有 同 符号 
的 灰 度 差异 ， 立 即 更 新 背景 。 在 一 个 时 间 周 期 内 ， 为 了 保证 背景 图 案 的 稳定 ，K(k 十 1) 以 指数 
级 递减 ， 而 经 过 一 个 周期 ,为 了 防止 背景 的 突变 造成 的 影响 ， 又 将 K(k 十 1) 的 值 恢复 至 初始 状 
态 。 这 一 过 程 可 以 用 下 式 表示 


(2) 


K(k+1)=e St MODD). (3) 


2.2 ”状态 转换 图 的 实现 

在 新 帧 到 来 后 ， 算 法 将 根据 新 的 连通 域 的 情况 ， 更 新 跟踪 信息 ， 跟 踪 信 息 通 过 状态 转换 图 
来 管理 : 每 一 个 跟踪 信息 对 应 一 个 状态 ， 从 当前 帧 分 析 的 结果 ， 决 定 跟踪 信息 的 下 一 个 状态 ， 
使 用 状态 转换 图 可 以 有 效 处 理 前 景 连通 区 的 合并 、 分 离 等 各 种 情况 。 状 态 转换 图 如 图 1 所 示 。 











图 1: 状态 转换 图 


图 中 箭头 上 的 数字 代表 状态 转换 的 各 个 条 件 ， 将 在 下 面 详 述 。 首 先 将 其 中 各 个 状态 的 意义 
说 明 如 下 : 

INITIAL: 正常 初始 化 ， 除 了 SUPERBLOCK， 这 是 区 块 进入 跟踪 信息 的 唯一 途径 ; 

TRACKING: 单一 的 正在 被 跟踪 的 区 块 ; 

LOST; 跟踪 区 块 丢 失 ， 系 统 允 许 跟踪 区 块 丢 失 若 干 帧 ， 再 从 丢失 的 状态 中 恢复 ; 

INTEGRATED: 两 个 或 多 个 区 块 在 跟踪 中 合成 一 个 大 区 块 的 情况 ， 这 时 多 个 区 块 都 被 标 
记 为 INTEGRATED: 


第 6 期 么 居 标 ， 王 冬 琳 : 基于 状态 转换 图 的 公共 场所 行人 视频 监控 方法 研究 1135 





SUPERBLOCK:， 超级 块 ， 当 视频 上 的 行人 过 于 密集 ， 会 形成 前 景区 域 非常 大 的 情况 ， 这 
种 情况 区 域 产生 区 与 销毁 区 都 不 再 起 作用 ， 这 时 将 前 景区 域 作 为 SUPERBLOCK 处 理 。 

下 面 分 别 介绍 各 个 状态 转换 的 条 件 : 

条 件 1 是 前 景区 域 进入 跟踪 链 的 入 口 ， 这 个 条 件 在 所 有 原始 的 跟踪 信息 处 理 过 之 后 判断 。 
系统 定义 产生 区 与 销毁 区 都 是 场景 周围 的 环形 区 域 ， 当 一 个 当前 区 域 在 所 有 的 跟踪 处 理 过 后 
仍 未 被 跟踪 且 其 中 心 在 生成 区 内 ， 条 件 1 成 立 ， 前 景区 域 进入 跟踪 链 且 被 标记 为 INITIAL。 
条 件 2 由 区 域 延伸 的 范围 与 区 域 的 面积 判断 ， 条 件 3 判 断 并 跟踪 单一 区 块 。 算 法 将 在 预测 方 
向 上 查找 新 的 跟踪 区 域 的 中 心 。 如 果 在 预测 的 位 置 附 近 最 近 的 区 块 中 心 到 预测 位 置 的 距离 
在 一 个 阔 值 以 内 则 进行 跟踪 。 当 在 预测 位 置 处 本 身 没 有 区 域 存在 时 ， 条 件 4 成 立 ， 认 为 这 一 
区 块 跟踪 暂时 丢失 。 当 两 个 行人 相互 靠近 但 在 预测 位 置 上 存在 有 效 前 景 时 ， 条 件 5 成 立 ， 认 
为 有 两 个 区 块 合并 发 生 。 条 件 6 判 断 何 时 认为 暂时 丢失 的 区 域 “ 完 全 丢失 ”， 即 从 跟踪 链 中 
移 除 。 这 里 通过 连续 丢失 的 总 帧 数 判 断 ， 如 果 连 续 丢失 的 总 帧 数 超过 某 一 域 值 ， 则 丢弃 这 
一 跟踪 的 区 域 信 息 。 条 件 7 是 移 除 超级 抉 的 条 件 : 如 果 当 前 所 有 的 连通 域 中 不 再 有 满足 “ 超 
级 块 ” 条 件 的 区 域 ， 则 将 “超级 块 ” 移 除 。 条 件 8 是 计数 的 关键 ， 当 监测 到 一 个 有 效 的 跟踪 
链 (TRACKING 或 INTEGRATED) 到 达 图 像 的 销毁 区 ， 发 消息 计数 并 移 除 跟踪 区 域 信息 。 

在 进行 计数 时 ， 和 需要 确定 区 域 所 包含 的 行人 个 数 。 首 先 考 虑 两 人 的 简单 情况 ， 当 两 个 人 重 
登 遮 挡 时 ， 一 般 总 面积 会 小 于 两 个 单 人 面积 ， 因 此 有 必要 引入 一 个 系数 ， 用 于 标记 视野 中 由 于 
两 个 目标 物体 相互 遮挡 造成 的 前 景 面积 损失 。 我 们 采用 如 下 的 模型 来 进行 模拟 : 假设 相互 遮挡 
的 目标 物体 具有 相同 的 大 小 ( 设 为 单位 1)， 并 且 处 于 同一 直线 上 ， 建 立 模型 : 在 长 度 为 2 的 国 
定 线段 上 投下 两 条 长 度 为 1 的 线段 ， 同 时 假设 投放 的 线段 位 置 均匀 分 布 且 互相 独立 ， 则 两 条 投 
放 的 线段 在 长 度 为 2 线段 上 速 住 长 度 的 数学 期 望 为 


Bls) =1+B(o- 如 = 和 (4) 








因此 ， 两 个 行人 重 辣 时 平均 每 人 占据 面积 的 最 佳 估 计 值 为 0.667 (2/3) 倍 单 人 占据 面积 。 


3 ”实验 结果 


背景 提取 的 对 比 实验 结果 如 图 2 所 示 ， 其 中 图 2 左 图 展示 了 直接 使 用 Kalman 滤波 的 背景 图 
效果 ， 在 图 像 中 存在 “ 鬼 影 ”的 现象 ， 而 相应 的 提出 的 方法 可 以 较 好 的 去 除 这 一 现象 。 





图 2: 实验 结果 对 比 


同时 ， 我 们 对 设计 的 系统 进行 了 实际 在 线 测试 ， 使 用 的 测试 数据 视频 长 度 为 7 分 43 秒 ， 经 
过 总 人 数 为 下 行 732， 分 辩 率 320 x 240， 帧 率 29.97 fps。 通 过 对 测试 数据 的 多 次 重复 实验 ， 我 
们 得 到 了 如 表 1 的 统计 实验 结果 。 其 中 ，“ 下 行 ” 栏 代 表 系 统 实际 检测 到 的 下 行人 流 数 目 ， 
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“其 他 ” 栏 显示 的 是 由 于 噪声 引起 的 系统 检测 到 的 其 他 方向 的 人 流 数目 。5 次 实验 的 统计 数据 
列 在 了 表格 的 右 方 。 


表 1: 实验 数据 测试 结果 








均值 误差 | 最 大 误差 
4.23% 


Te 标准 差 
下 行 759 | 759 | 717 | 763 | 712 732 | 22.56 


nw 7mlm| ol mio | nT oml 


从 实验 结果 可 以 看 出 ， 本 文 的 方法 有 效 地 达到 了 行人 流量 视频 监测 的 目的 ， 在 地 铁 站 这 种 
人 流 比 较 密集 的 地 区 ， 误 检 率 和 漏 检 率 相对 较 少 ， 可 以 达到 人 流 监测 、 预 警 的 实用 目的 。 












4 讨论 与 结论 


本 文 致力 于 在 行人 流量 密集 的 公共 场所 采用 传统 的 前 景 /背景 方式 进行 有 效 的 视频 监控 ， 并 
采用 了 状态 转换 图 与 设 定 状态 之 闻 转 换 规则 的 方式 进行 运动 物体 的 跟踪 ， 来 解决 目标 之 闻 的 让 
挡 与 分 开 的 问题 。 需 要 强调 的 是 ， 状 态 转换 图 方法 具有 较 好 的 可 扩展 性 ， 可 以 灵活 应 用 于 各 种 
不 同 场景 与 条 件 下 的 视频 监控 情况 ， 我 们 可 以 设计 其 他 的 状态 与 状态 转移 条 件 来 满足 实际 情况 
的 需要 。 
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Pedestrian Video Surveillance Approach Based on the 
State-transition Graph 


YAO Ju-biao, WANG Dong-lin 


(Beijing Vocational College of Electronic Science, Beijing 100029) 


Abstract: The automatic visual surveillance plays an important role in the security control of public 
places. In this paper, a practical pedestrian surveillance system is proposed, the system is based on the 
improved Kalman filter background update approach. We also implement a new state-transition graph 
system to solve some complicate situations, like foreground occlusion and conjunction. Experimental 
results show the efficiency of our approaches. 
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